Analítica de datos aplicada a estudios sobre desarrollo

Introducción a al paquete R

Sobre Mi

PhD en Estadística, MSc en Analytics & Big Data, MSc en Estadística. Con 20 años de experiencia, actual director de analítica en el CNC, miembro del comité de expertos en pobreza en el DANE y consultor de la División de Estadística de la CEPAL. Ex-decano de la Facultad de Estadística USTA, ex-director de operaciones en el ICFES, PM CEV …

Puedes encontrarme en:

INTRODUCCIÓN AL PAQUETE R

Proceso de analítica

Wickham, H. y otros (2023)

Trabajando con R

El entorno tidyverse

Flujo de trabajo

Flujo de trabajo

Arkie Owen

Organización y proyectos en R

  • Facilita entornos colaborativos - reproducible y replicable
  • Evite la asignación de rutas de trabajo setwd(mi/ruta/)
  • Cree un R-project y solo revise getwd()
  • Organice su espacio de trabajo:

Entorno de R Studio

Hadley Wickham

Reglas de los datos



Formas básicas

  • Asignación: objeto <- valor
x <- 3*4             # Numérico
y <- "Hola a tod@s"  # Cadena
  • Funciones: Nombre_Funcion(arg1 = val1, arg2 = val2,...)
z <- seq(1, 10)      # Vector
hoy <- date()        # Fecha
  • Ayuda: help(Nombre_Funcion) o ?Nombre_Funcion
?seq
?read.csv

Importar

Hay diferentes paquetes que permiten leer y escribir diversos formatos de datos

  • haven: Stata, SPSS, SAS
  • readxl y writexl
  • arrow, data.table, …

Comandos iniciales: estructura


Existen varias formas de observar la estructura de los datos


head(tus_datos)
str(tus_datos)
length(tus_datos)
glimpse(tus_datos)
names(tus_datos)


Los comandos head, str, names son del paquete base mientras que glimpse es del entorno tidyverse.

Ejercicio

Tu turno:

  1. Cree el espacio de trabajo para Mi primer proyecto
  2. Descargue los siguientes conjuntos de datos desde el repositorio de GitHub y ubiquelos en la carpeta input/:
  • SPSS: ENSIN.sav,
  • Stata: COL_2021_LAPOP.dta,
  • Apache Parquet: violencia_intrafamiliar.parquet,
  • Excel: datos_est_ventas.xlsx
  1. Importe los conjuntos de datos a R y revise su estructura.

GRACIAS!

Referencias

  • R for data science. Section 3. Data visualization. Disponible aquí

  • Dougherty, J. and Ilyankou, I. (2022) Hands-On Data Visualization. Interactive Storytelling from Spreadsheets to Code. Section 6. Chart Design Principles. Disponible aquí

  • Williams, G. (2022) Data Science Desktop Survival Guide. Togaware. Disponible aquí Chapter 2 introducing R

  • Jadey Ryan. Reproducible reports and presentations with Quarto. Disponible aquí

Citación y derechos de autor

Este material ha sido creado por Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.

Si se copia parcial o totalmente, debe citar la fuente como:

Babativa-Márquez, J.G. Materiales del curso de Analítica de Datos. URL: https://github.com/jgbabativam/AnaDatos.